RL2ML: Objetivos sustitutos de rollouts finitos del Aprendizaje por Refuerzo a la Máxima Verosimilitud
Explora RL2ML: objetivos sustitutos que convierten rollouts finitos en máxima verosimilitud. Técnica clave para optimizar modelos de aprendizaje automático.